草庐IT

Beautiful Soup

全部标签

python - 使用 Python 和 BeautifulSoup(将网页源代码保存到本地文件中)

我正在使用Python2.7+BeautifulSoup4.3.2。我正在尝试使用Python和BeautifulSoup来获取网页上的信息。因为网页在公司网站,需要登录和重定向,所以为了方便练习,我把目标页面的源代码页面复制到一个文件中,保存为“example.html”在C:\中。这是原代码的一部分:port_new_cape452SouthMay09,1997Jan23,200912:05pm 到目前为止我编写的代码是:frombs4importBeautifulSoupimportreimporturllib2url="C:\example.html"page=url

python - 使用 Python 和 BeautifulSoup(将网页源代码保存到本地文件中)

我正在使用Python2.7+BeautifulSoup4.3.2。我正在尝试使用Python和BeautifulSoup来获取网页上的信息。因为网页在公司网站,需要登录和重定向,所以为了方便练习,我把目标页面的源代码页面复制到一个文件中,保存为“example.html”在C:\中。这是原代码的一部分:port_new_cape452SouthMay09,1997Jan23,200912:05pm 到目前为止我编写的代码是:frombs4importBeautifulSoupimportreimporturllib2url="C:\example.html"page=url

python - 如何在windows上用python 2.7安装beautiful soup 4

我有Python2.7的windowsvista。我想安装BeautifulSoup4,但显然我不能通过将文件复制到site-packages目录来安装BeautifulSoup。我必须安装pip然后从命令提示符运行一些命令。你能指导我一步一步完成吗?我真的是一个菜鸟,所以让它很简单。提前致谢 最佳答案 您不需要pip来安装BeautifulSoup-您可以只需下载它并运行pythonsetup.pyinstall从你解压BeautifulSoup的目录(假设你已经将Python添加到你的系统PATH-如果你没有并且你不想你可以运行

python - 如何在windows上用python 2.7安装beautiful soup 4

我有Python2.7的windowsvista。我想安装BeautifulSoup4,但显然我不能通过将文件复制到site-packages目录来安装BeautifulSoup。我必须安装pip然后从命令提示符运行一些命令。你能指导我一步一步完成吗?我真的是一个菜鸟,所以让它很简单。提前致谢 最佳答案 您不需要pip来安装BeautifulSoup-您可以只需下载它并运行pythonsetup.pyinstall从你解压BeautifulSoup的目录(假设你已经将Python添加到你的系统PATH-如果你没有并且你不想你可以运行

python - 使用 Python 将 HTML 渲染为纯文本

我正在尝试使用BeautifulSoup转换一大段HTML文本。这是一个例子:SometextmoretextevenmoretextlistitemyetanotherlistitemSomeothertextlistitemyetanotherlistitem我尝试做类似的事情:defparse_text(contents_string)Newlines=re.compile(r'[\r\n]\s+')bs=BeautifulSoup.BeautifulSoup(contents_string,convertEntities=BeautifulSoup.BeautifulSoup.

python - 使用 Python 将 HTML 渲染为纯文本

我正在尝试使用BeautifulSoup转换一大段HTML文本。这是一个例子:SometextmoretextevenmoretextlistitemyetanotherlistitemSomeothertextlistitemyetanotherlistitem我尝试做类似的事情:defparse_text(contents_string)Newlines=re.compile(r'[\r\n]\s+')bs=BeautifulSoup.BeautifulSoup(contents_string,convertEntities=BeautifulSoup.BeautifulSoup.

python - BeautifulSoup 内部html?

假设我有一个带有div的页面。我可以使用soup.find()轻松获得该div。现在我有了结果,我想打印那个div的整个innerhtml:我的意思是,我需要一个包含所有html的字符串标签和文本放在一起,就像我在javascript中使用obj.innerHTML得到的字符串一样。这可能吗? 最佳答案 TL;DR对于BeautifulSoup4,如果您想要一个UTF-8编码的字节字符串,请使用element.encode_contents(),如果您想要PythonUnicode字符串,请使用element.decode_cont

python - BeautifulSoup 内部html?

假设我有一个带有div的页面。我可以使用soup.find()轻松获得该div。现在我有了结果,我想打印那个div的整个innerhtml:我的意思是,我需要一个包含所有html的字符串标签和文本放在一起,就像我在javascript中使用obj.innerHTML得到的字符串一样。这可能吗? 最佳答案 TL;DR对于BeautifulSoup4,如果您想要一个UTF-8编码的字节字符串,请使用element.encode_contents(),如果您想要PythonUnicode字符串,请使用element.decode_cont

python - BeautifulSoup:只要进入一个标签,不管有多少封闭标签

我正在尝试从中抓取所有内部html使用BeautifulSoup的网页中的元素。有内部标签,但我不在乎,我只想获取内部文本。例如,对于:RedBlueYellowLightgreen如何提取:RedBlueYellowLightgreen没有.string也不是.contents[0]做我需要的。.extract()也没有,因为我不想提前指定内部标签——我想处理任何可能发生的事情。BeautifulSoup中是否有“获取可见HTML”类型的方法?----更新-----根据建议,尝试:soup=BeautifulSoup(open("test.html"))p_tags=soup.fin

python - BeautifulSoup:只要进入一个标签,不管有多少封闭标签

我正在尝试从中抓取所有内部html使用BeautifulSoup的网页中的元素。有内部标签,但我不在乎,我只想获取内部文本。例如,对于:RedBlueYellowLightgreen如何提取:RedBlueYellowLightgreen没有.string也不是.contents[0]做我需要的。.extract()也没有,因为我不想提前指定内部标签——我想处理任何可能发生的事情。BeautifulSoup中是否有“获取可见HTML”类型的方法?----更新-----根据建议,尝试:soup=BeautifulSoup(open("test.html"))p_tags=soup.fin